2022 iThome 鐵人賽
分享至
爬蟲根據結構、技術和目的區分:
主要是搜集每個網站的特色,爬取的範圍和數據量也比較龐大。也可以稱為搜尋引擎。例如google, yahoo, 百度……
又叫做主題網路爬蟲,主要是依據需求,選擇性地爬取頁面。
可以減少數據下載量、節省時間和儲存空間,主要只爬取更新的頁面,但也因此需要比較複雜的演算法,目前較少在使用。
爬取較深層的網頁,例如像是提交表單後才會出現的網頁訊息、需要帳號密碼頁面……這些無法從靜態的網頁取得的資訊。
IT邦幫忙